%	\chapter{信息论}
	\section{绪论}
	通常，我们说一句话是废话，意思就是这句话的信息量为零。那么只有当所有人都知道，一句话肯定成立，此时这句话就是废话，信息量就是零。例如，给定一组判断：
	\begin{enumerate}
		\item 牛顿的生日在一年之中的某一天；
		\item 牛顿的生日在下半年；
		\item 牛顿的生日在某月的25日。
	\end{enumerate}
	显然，第一句话是废话；第二句话有点信息量，因为它有一半的可能性是正确的，或者说，这句话将满足条件的取样空间缩小了一半。第三句话信息量较多，因为它只有约三十分之一的可能性是正确的。
	
	在这里，对于概率空间$(\Omega,\mathfrak{F},P)$而言，一个表述指的就是一个事件$A\in\mathfrak{F}$。一个表述，或者说子集$A$的概率测度是$P$，我们判断这个表述正确，从而将原本的概率测度为$1$的全集$\Omega$缩小到了概率测度为$P$的子集$A$。因此，为了刻画信息量，可以给出一个关于$\frac{1}{P}$的函数。
	
	另一方面，考虑两个独立的、不相关表述，它们分别可以将子集$A$的概率测度缩小相应的倍数，就像独立事件一样。然而，我们希望两个表述的信息量是叠加的(以符合我们对两句话，或者两段编码长度的认识。)。于是，最后信息量的函数就应当正比于$\log\frac{1}{P}$。
		
	\begin{definition}[信息量]
		一个表述的信息量$Q$定义为
		\begin{equation}
		Q=-k\log P,\ k>0
		\end{equation}
		其中$P$是表述的概率。当$k=1$，对数的底是$2$时，信息量就可以用比特来量度；当$k=k_B$且对数的底是$e$时，该定义就和热力学采用的结论一致。
	\end{definition}
	
	考虑$\Omega$是有限集合的情形，这时每个${\omega}$可以视作一个事件，也就是一个表述。这样的话，一个表述$\omega_i$的信息量$Q_i$就满足随机变量的定义，因此可以看作是随机变量。从而，可以给出这个表述的期望值。该期望值就是香农熵：
	\begin{definition}[Shannon熵]
		如果有一组表述，概率分别为$P_i$，它们对应的信息量是$Q_i=-k\log P_i$，那么定义其平均信息量为Shannon熵：
		\begin{equation}
		H=E(Q)=\sum_{i}Q_iP_i=-k\sum_i P_i\log P_i
		\end{equation}
	\end{definition}
	
	信息熵的引入与通信行业发展密切相关。在压缩编码时，我们可以将一个非常常见的长字符串用一个新的缩写代替，而将非常罕见的短字符串用新的较长的串来代替(这样原来的短字符串就可以留给更常见的长字符串作为缩写使用)。事实上，香农熵正给出了用这种方法压缩的极限。
	
	\section{Shannon熵}
	与统计物理中的熵相似，信息熵也应当描述不确定性。假定我们研究的随机试验$\alpha$只有有限个不相容的结果$A_1,A_2,\cdots,A_n$，相应的概率为$P(A_1),\cdots,p(A_n)$，满足
	\begin{equation}
	\sum_{i=1}^n p(A_i)=1
	\end{equation}
	记为
	\begin{equation}
	\alpha:\begin{pmatrix}
	A_1,& A_2,& \cdots,& A_n\\
	p(A_1),& p(A_2),& \cdots,& p(A_n)
	\end{pmatrix}
	\end{equation}
	我们希望能找到一个函数$H(\alpha)$来度量$\alpha$的不确定性。这个量当然应当依赖于$p(A_i)$，因此记为
	\begin{equation}
	H(p(A_1),\cdots,p(A_n))
	\end{equation}
	\begin{enumerate}

	\item 首先，我们希望$H(p(A_i))$是连续函数，毕竟概率的微小变化不应当引起不确定性的巨大变化。
	
	\item 然后，如果各个结果都是等可能的，我们希望$H(p(A_i))$是关于$n$单调递增的。毕竟如果试验有更多结果时，不确定性显然应当增加。
	
	\item 最后，如果一个试验分成相继的两个试验时，未分之前的$H$应当是既分之后的两个试验的加权和。考虑具有三个结果的试验
	\begin{equation}
	\alpha:\begin{pmatrix}
	A_1,& A_2,& A_3\\
	p_1,& p_2,& p_3
	\end{pmatrix}
	\end{equation}
	那么该试验的不确定性是$H(\alpha)=H(p_1,p_2,p_3)$。现在将试验拆分为两次，第一次看看是$A_1$还是$A_2\cup A_3$；如果是$A_2\cup A_3$，第二次再看看到底是$A_2$还是$A_3$。显然，第一次试验是
	\begin{equation}
	\alpha_1:\begin{pmatrix}
	A_1,& B\\
	p_1,& p_2+p_3
	\end{pmatrix}
	\end{equation}
	其不确定性是
	\begin{equation}
	H(\alpha_1)=H(p_1,p_2+p_3)
	\end{equation}
	而第二次试验则为
	\begin{equation}
	\alpha_2:\begin{pmatrix}
	A_2,& A_3\\
	\frac{p_2}{p_2+p_3}& \frac{p_3}{p_2+p_3}
	\end{pmatrix}
	\end{equation}
	其不确定性是
	\begin{equation}
	H(\alpha_2)=H\left(\frac{p_2}{p_2+p_3},\frac{p_3}{p_2+p_3}\right)
	\end{equation}
	
	进行一次试验和进行两次试验的不确定性是一样的，因此
	\begin{equation}
	H(p_1,p_2,p_3)=H(p_1,p_2+p_3)+(p_2+p_3)H\left(\frac{p_2}{p_2+p_3},\frac{p_3}{p_2+p_3}\right)+p_1H(1)
	\end{equation}
	\end{enumerate}
	满足上面三个条件的函数$H$的形式由香农给出，就是所谓的香农熵。
	
	首先，证明一个引理
	\begin{theorem}
		如果$f(n)$是单调递增函数，且对于$\forall m,n\in\mathbb{N}^*$，都有
		\begin{equation}
		f(mn)=f(m)+f(n)
		\end{equation}
		则
		\begin{equation}
		f(n)=C\ln n
		\end{equation}
	\end{theorem}
	\begin{proof}
		首先我们有$f(1)=0$，然后对于$\forall k\in\mathbb{N}^*$，有
		\begin{equation}
		f(n^k)=kf(n)
		\end{equation}
		则对于任意正整数$n,m\neq 1$，选取任意大的正整数$k$，再选取正整数$l$，使得
		\begin{equation}
		m^l\leq n^k < m^{l+1}
		\end{equation}
		由函数的单调性，有
		\begin{equation}
		f(m^l)\leq f(n^k)< f(m^{l+1})
		\end{equation}
		从而
		\begin{equation}
		\frac{l}{k}\leq \frac{f(n)}{f(m)}<\frac{l+1}{k}
		\end{equation}
		另一方面，有
		\begin{equation}
		l\ln m\leq k\ln n <(l+1)\ln m
		\end{equation}
		因此也有
		\begin{equation}
		-\frac{l+1}{k}< -\frac{\ln n}{\ln m}\leq-\frac{l}{k}
		\end{equation}
		两个不等式相加，可得
		\begin{equation}
		\left|\frac{f(n)}{f(m)}-\frac{\ln n}{\ln m}\right|<\frac{1}{k}
		\end{equation}
		由于上式对于任意大的$k$都成立，因此
		\begin{equation}
		f(n)=C\ln n
		\end{equation}
		\qed
	\end{proof}
	\begin{theorem}[Shannon]
		$H$满足上面三个条件，当且仅当其具有如下形式
		\begin{equation}
		H=-C\sum_{i=1}^{n}p_i\ln p_i
		\end{equation}
	\end{theorem}
	\begin{proof}
		记
		\begin{equation}
		f(n)=H(\frac{1}{n},\cdots,\frac{1}{n})
		\end{equation}
		然后对于有$mn$个结果的等概率试验，将其分为$m$个有$n$个等概率结果的试验，因此根据条件3，有
		\begin{equation}
		f(mn)=f(m)+\sum_{i=1}^{m}\frac{1}{m}f(n)=f(m)+f(n)
		\end{equation}
		利用之前的引理立刻得到
		\begin{equation}
		f(n)=C\ln n
		\end{equation}
		
		其次，当$p_i$是有理数时，不妨记
		\begin{equation}
		p_i=\frac{n_i}{\sum_{k=1}^n n_k}
		\end{equation}
		考虑一个有$\sum_{k=1}^n n_k$个等概率结果的试验，而这个试验又可以看作是两个相继的试验。第一次试验考察是属于以概率$p_i$出现的结果$A_i$，第二次试验则是在$A_i$下考察是$n_i$个等可能结果中的哪个结果。按照条件3，应当有
		\begin{equation}
		C\ln\left(\sum_{i=1}^n n_i\right)=H(p_1,\cdots,p_n)+C\sum_{i=1}^n p_i\ln n_i
		\end{equation}
		从而
		\begin{equation}\begin{aligned}
		H(p_1,\cdots,p_n)&=-C\sum_{i=1}^n p_i\ln n_i+C\ln\left(\sum_{i=1}^n n_i\right)\\
		&=-C\sum_{i=1}^n p_i\ln n_i+C\sum_{i=1}^n p_i\ln\left(\sum_{j=1}^n n_j\right)\\
		&=-C\sum_{i=1}^n p_i\left(\ln n_i-\ln\left(\sum_{j=1}^n n_j\right)\right)\\
		&=-C\sum_{i=1}^n p_i\ln\frac{n_i}{\sum_{j=1}^n n_j}=-C\sum_{i=1}^n p_i\ln p_i
		\end{aligned}\end{equation}
		
		最后，如果$p_i\in\mathbb{R}$，那么可以用有理数列来逼近，考虑到$H$是各自变量的连续函数，因此上述表达式依然成立。
		\qed
	\end{proof}

	香农熵前的系数$C$可以任意取，通常可取玻尔兹曼常数$k_B$，以与统计物理学相对应；也可以取$\ln 2$，以与计算机的采用的二进制相对应。不失一般性，下面均令$C=1$。
	
	香农熵具有如下性质：
	\begin{theorem}
		\begin{enumerate}
		\item 当且仅当$p(A_i), 1,2,\cdots,n$之中的一个等于$1$时，熵$H=0$，其余情况下熵恒为正。
		\item 在具有$n$个可能结果的试验中，等概率试验具有最大熵，其值为$\ln n$
		\item 如果试验$\alpha$和$\beta$独立，则$H(\alpha\beta)=H(\alpha)+H(\beta)$
	\end{enumerate}
	\end{theorem}
	\begin{proof}
		\begin{enumerate}
			\item 显然。
			\item 考虑Jensen不等式，对于$[a,b]$上的凹函数$\varphi(x)$，$x_1,\cdots,x_n\in [a,b]$，则
			\begin{equation}
			\sum_{i=1}^n \lambda_i\varphi(x_i)\leq \varphi\left(\sum_{i=1}^n \lambda_i x_i\right),\quad \text{where}\ \sum_{i=1}^n \lambda_i=1, \lambda_i>0
			\end{equation}
			等号成立当且仅当$x_i$相等。
			
			于是取$\phi(x)=-Cx\ln x$，$x_i=p(A_i)$，$\lambda_i=1/n$，有
			\begin{equation}
			-\sum_{i=1}^n \frac{1}{n}p(A_i)\ln p(A_i)\leq -\sum_{i=1}^n\frac{p(A_i)}{n} \ln\left(\sum_{i=1}^n\frac{p(A_i)}{n}\right)=\frac{\ln n}{n}
			\end{equation}
			即
			\begin{equation}
			H(p(A_1),\cdots,p(A_n))\leq \ln n=H\left(\frac{1}{n},\cdots,\frac{1}{n}\right)
			\end{equation}
			
			\item 两个试验相乘的含义是，考虑
			\begin{equation}
			\alpha:\begin{pmatrix}
			A_1, &\cdots, &A_m\\
			p(A_1), &\cdots, &p(A_m)
			\end{pmatrix}
			\quad 
			\beta: \begin{pmatrix}
			B_1, &\cdots, &B_n\\
			p(B_1), &\cdots, &p(B_n)
			\end{pmatrix}
			\end{equation}
			则$\alpha\beta$试验的可能结果就是$A_k B_l,\quad k=1,\cdots,m,\quad l=1,\cdots,n$，相应的概率为$p(A_k B_l)$，从而
			\begin{equation}
			H(\alpha\beta)=-\sum_{k=1}^m\sum_{l=1}^n p(A_k B_l)\ln p(A_k B_l)
			\end{equation}
			对于独立试验，有$p(A_kB_l)=p(A_k)p(B_l)$，于是
			\begin{equation}
			H(\alpha\beta)=-\sum_{k=1}^m\sum_{l=1}^n p(A_k)p(B_l)(\ln p(A_k)+\ln p(B_l))=H(\alpha)+H(\beta)
			\end{equation}\qed
		\end{enumerate}
	\end{proof}

	\section{条件熵和信息量}
	\begin{definition}[条件熵]
		设$\alpha,\beta$是两个试验，以$p(B_l|A_k)$记试验$\alpha$出现结果$A_k$的条件下，试验$\beta$出现结果$B_l$的概率。则称
		\begin{equation}
		H_{A_k}(\beta)=-\sum_{l=1}^n p(B_l|A_k)\ln p(B_l|A_k)
		\end{equation}
		是试验$\alpha$出现$A_k$的条件下，试验$\beta$的熵。定义平均值
		\begin{equation}
		H_{\alpha}(\beta)=\sum_{k=1}^m p(A_k)H_{A_k}(\beta)
		\end{equation}
		为在试验$\alpha$实现的条件下，试验$\beta$的条件熵。
	\end{definition}
	
	下面是条件熵的性质
	\begin{theorem}
		\begin{enumerate}
			\item 加法法则：
			\begin{equation}
			H(\alpha\beta)=H(\alpha)+H_{\alpha}(\beta)
			\end{equation}
			这实际上就是推导熵表达式的第三个条件。
			
			\item $H_{\alpha}(\beta)$是非负的。如果$p(A_i)>0$，则当且仅当$H_{A_i}(\beta)=0,\ i=1,\cdots,m$时，$H_{\alpha}(\beta)=0$才成立。而且，此时还有$H(\alpha\beta)=H(\alpha)$。实际上，这指的是在什么条件下，试验$\alpha$能消除试验$\beta$的不确定性，或者说试验$\alpha$的结果决定了试验$\beta$的结果。
			
			\item 先做一个试验$\alpha$，总不会使得$\beta$的不确定度更大，或者说，一般会让$\beta$的不确定性更小一点。
			\begin{equation}
			H_{\alpha}(\beta)\leq H(\beta)
			\end{equation}
			
			\item \begin{equation}
			H(\alpha\beta)\leq H(\alpha)+H(\beta)
			\end{equation}
		\end{enumerate}
	\end{theorem}
	\begin{proof}
		\begin{enumerate}
			\item 根据定义，
			\begin{equation}
			H(\alpha\beta)=-\sum_{k=1}^m\sum_{l=1}^n p(A_kB_l)\ln p(A_kB_l)
			\end{equation}
			利用
			\begin{equation}
			p(B_l|A_k)=\frac{p(A_kB_l)}{p(A_k)}
			\end{equation}
			可得
			\begin{equation}\begin{aligned}
			H(\alpha\beta)&=-\sum_{k=1}^m\sum_{l=1}^n p(B_l|A_k)p(A_k)\left(\ln p(B_l|A_k)+\ln p(A_k)\right)\\
			&=-\sum_{k=1}^m p(A_k)\sum_{l=1}^n p(B_l|A_k)\ln p(B_l|A_k) -\sum_{k=1}^m p(A_k)\ln p(A_k) \sum_{l=1}^n p(B_l|A_k)\\
			&=H_{\alpha}(\beta)+H(\alpha)
			\end{aligned}\end{equation}
			
			\item 由定义显然。
			\item 考虑Jensen不等式，取$\varphi(x)=-x\ln x$，$\lambda_i=p(A_i)$，$x_i=p(B_k|A_i)$，则
			\begin{equation}
			-\sum_{i=1}^m p(A_i)p(B_k|A_i)\ln p(B_k|A_i) \leq -\sum_{i=1}^m p(A_i)p(B_k|A_i)\ln\left( \sum_{j=1}^mp(A_j)p(B_k|A_j)\right)
			\end{equation}
			利用全概率公式，可得右边
			\begin{equation}
			-\sum_{i=1}^m p(A_i)p(B_k|A_i)\ln\left( \sum_{j=1}^mp(A_j)p(B_k|A_j)\right)=-p(B_k)\ln p(B_k)
			\end{equation}
			对$k$求和得
			\begin{equation}
			-\sum_{i=1}^m p(A_i)\sum_{k=1}^n p(B_k|A_i)\ln p(B_k|A_i)\leq -\sum_{k=1}^n p(B_k)\ln p(B_k)
			\end{equation}
			这就是
			\begin{equation}
			H_{\alpha}(\beta)\leq H(\beta)
			\end{equation}
			
			\item 根据前面的结果，
			\begin{equation}
			H(\alpha\beta)=H(\alpha)+H_{\alpha}(\beta)\leq H(\alpha)+H(\beta)
			\end{equation}
		\end{enumerate}\qed
	\end{proof}
	
	前一个试验$\alpha$一般可以为后一次试验$\beta$的不确定度，也就是熵的减少做贡献。这实际上就可以看作$\alpha$提供了关于$\beta$的信息。
	\begin{definition}[信息量]
		我们称
		\begin{equation}
		I(\alpha,\beta)=H(\beta)-H_{\alpha}(\beta)
		\end{equation}
		为试验$\alpha$中有关试验$\beta$的信息量。
	\end{definition}

	\begin{theorem}
		我们有
		\begin{equation}
		I(\beta,\alpha)=I(\alpha,\beta)
		\end{equation}
	\end{theorem}
	\begin{proof}
		根据
		\begin{equation}
		H(\alpha\beta)=H(\alpha)+H_{\alpha}(\beta)=H(\beta)+H_{\beta}(\alpha)
		\end{equation}
		可得
		\begin{equation}
		I(\beta,\alpha)=H(\beta)-H_{\alpha}(\beta)=H(\alpha)-H_{\beta}(\alpha)=I(\alpha,\beta)
		\end{equation}
		\qed
	\end{proof}
	只有当$\alpha$和$\beta$独立时，才有$I(\alpha,\beta)=0$，这时做$\alpha$的试验不能得到有关于$\beta$的任何信息，$\beta$的条件熵和原本的熵是一样的。
	
	\section{连续情形}
	一种定义连续情形熵的办法是仿照离散情形，设随机变量$\alpha$的密度函数是$p(x)$，$\beta$的密度为$q(x)$，则给出
	\begin{equation}
	H(\alpha)=-\int_{\mathbb{R}}p(x)\ln p(x)dx
	\end{equation}
	\begin{equation}
	H(\alpha\beta)=-\int_{\mathbb{R}^2}f(x,y)\ln f(x,y)dxdy
	\end{equation}
	其中$f(x,y)$是联合密度。相应地，条件熵为
	\begin{equation}
	H_{\alpha}(\beta)=-\int_{\mathbb{R}^2}f(x,y)\ln\left(\frac{f(x,y)}{p(x)}\right)dxdy
	\end{equation}
	\begin{equation}
	H_{\beta}(\alpha)=-\int_{\mathbb{R}^2}f(x,y)\ln\left(\frac{f(x,y)}{q(x)}\right)dxdy
	\end{equation}
	这样定义的熵具有一些和离散情形下的熵一样的性质，比如说$V$中均匀分布的熵最大(对应于统计物理中的微正则系综以及等概率假设)，以及
	\begin{equation}
	H(\alpha\beta)=H(\alpha)+H_{\alpha}(\beta)\leq H(\alpha)+H(\beta)
	\end{equation}
	
	\begin{theorem}
		设$p(x)$是一元密度函数，具有给定的标准差$\sigma$，则当$p(x)$是正态分布时，熵达最大值。其值为$H(\alpha)=\ln (\sqrt{2\pi e}\sigma)$
	\end{theorem}
	\begin{proof}
		在约束
		\begin{equation}
		\int_{\mathbb{R}}p(x)dx=1,\quad Var\alpha = \int_{\mathbb{R}}x^2p(x)dx=\sigma^2
		\end{equation}
		的条件下，要使得熵
		\begin{equation}
		H(x)=-\int_{\mathbb{R}} p(x)\ln p(x)dx
		\end{equation}
		达到最大。采用变分法，这相当于要求
		\begin{equation}
		\int_{\mathbb{R}}-p(x)\ln p(x)+\lambda p(x)+\mu x^2p(x)dx
		\end{equation}
		达到极大值。对$p$求偏导数，得
		\begin{equation}
		-1-\ln p(x)+\lambda+\mu x^2=0
		\end{equation}
		从而满足约束的$p(x)$是
		\begin{equation}
		p(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{x^2}{2\sigma^2}}
		\end{equation}
		且熵为
		\begin{equation}
		H(\alpha)=\int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{x^2}{2\sigma^2}}\left[\ln\left(\sqrt{2\pi}\sigma\right)+\frac{x^2}{2\sigma^2}\right]dx=\frac{1}{2}+\ln (\sqrt{2\pi}\sigma)
		\end{equation}
		\qed
	\end{proof}
	类似地，如果密度函数只在正半轴上大于零，且给定期望，那么指数分布才能达到最大熵(对应于统计物理中的正则系综)。以上连续熵的定义不是唯一的，因为其数值会因为坐标系的改变而改变，所以还会用到其他定义。

	\section{相对熵与交叉熵}
	在机器学习中，一个常见的步骤是比较两个分布的一致性。如果模型的分布与真实的分布非常接近，那么我们就认为模型训练得不错。度量两个分布一致性的指标就是相对熵，也叫做KL散度(Kullback Leibler divergence)。
	\begin{definition}[相对熵]
		设随机变量$X$服从分布$P(x)$。对于另一个分布$Q(x)$，我们定义相对熵为
		\begin{equation}
		D_{\rm KL}(P\|Q) = E\ln\left(\frac{P(x)}{Q(x)}\right) = E(\ln P(x)-\ln Q(x))
		\end{equation}
		
		如果随机变量$X$是离散型随机变量，$X$的分布列为$P(x_i)$，则对于另一个分布列$Q(x_i)$而言，相对熵是
		\begin{equation}
		D_{\rm KL}(P\|Q)=\sum_{i=1} P(x_i)\ln\left(\frac{P(x_i)}{Q(x_i)}\right)
		\end{equation}
		
		如果随机变量$X$是连续型随机变量，$X$的密度是$p(x)$，则对于另一个密度函数$q(x)$而言，相对熵是
		\begin{equation}
		D_{\rm KL}(P\|Q)=\int_{\mathbb{R}}p(x)\ln\left(\frac{p(x)}{q(x)}\right)dx
		\end{equation}
	\end{definition}

	\begin{theorem}
		设随机变量$X$服从分布$p(x)$，而对于任意分布$q(x)$，其相对熵满足不等式
		\begin{equation}
		D_{\rm KL}(P\|Q) =\int_{\mathbb{R}}p(x)\ln\left(\frac{p(x)}{q(x)}\right)dx\geq 0
		\end{equation}
		等号成立当且仅当$q(x)=p(x)$几乎处处成立。
	\end{theorem}
	\begin{proof}
		我们有
		\begin{equation}
		\ln(x)\leq x-1,\forall x>0
		\end{equation}
		等号成立当且仅当$x=1$。从而
		\begin{equation}
		\begin{aligned}
		D_{\rm KL}(P\| Q)= -\int_{\mathbb{R}}p(x)\ln\left(\frac{q(x)}{p(x)}\right)&\geq -\int_{\mathbb{R}}(q(x)-p(x))dx\\
		&=\int_{\mathbb{R}}p(x)dx-\int_{\mathbb{R}}q(x)dx=0
		\end{aligned}
		\end{equation}
		等号成立当且仅当$p(x)=q(x)$几乎处处成立。\qed
	\end{proof}

	值得注意的是，相对熵不是一个真正的距离，因为它不满足对称性。对于绝大多数分布$P(x)$和$Q(x)$，都有
	\begin{equation}
	D_{\rm KL}(P\|Q)\neq D_{\rm KL}(Q\|P)
	\end{equation}
	
	现在我们希望用$Q$来趋近真实分布$P$。如果我们仔细选择$Q$分布参数，使得
	\begin{equation}
	Q^*=\arg\min_Q D_{\rm KL}(P\|Q)
	\end{equation}
	达到最小，则在计算相对熵时，分母$Q$的零值会让相对熵发散，因此这种策略会让$Q$尽量覆盖理论分布的所有范围，从而显得相对均一。
	
	另一方面，如果我们选择$Q$的参数使得
	\begin{equation}
	Q^*=\arg\min_Q D_{\rm KL}(Q\|P)
	\end{equation}
	达到最小，则在计算相对熵时，分子$Q$的零值会让相对熵变小，因而$Q$会尽量用零值来拟合$P$的比较低概率出现的部分。但$Q$毕竟是个分布，积分总要为$1$的，所以这些非零的部分就趋向于聚集起来，模仿$P$的高峰的部分。
	
	另一个常用的指标叫做交叉熵：
	\begin{definition}[交叉熵]
		设随机变量$X$服从分布$P(x)$。对于另一个分布$Q(x)$，我们定义交叉熵为
		\begin{equation}
		H(P,Q)=-E\ln Q(x)
		\end{equation}
		
		如果随机变量$X$是离散型随机变量，其分布列是$P(x_i)$，则对于另一个分布列$Q(x_i)$，交叉熵可以写为
		\begin{equation}
		H(P,Q)=-\sum_{i=1} P(x_i)\ln Q(x_i)
		\end{equation}
		
		如果$X$是连续型随机变量，密度是$p(x)$，则对于另一个密度$q(x)$，交叉熵可以写为
		\begin{equation}
		H(p,q)=-\int_{\mathbb{R}}p(x)\ln q(x)dx
		\end{equation}
	\end{definition}
	不难看出交叉熵比相对熵少了一项。在实际运用中，我们针对$Q$最小化交叉熵时，等价于针对$Q$最小化相对熵。原因是交叉熵少的那一项与$Q$无关。
	
	
	